Gaussian process state-space model (GPSSM) is a fully probabilistic state-space model that has attracted much attention over the past decade. However, the outputs of the transition function in the existing GPSSMs are assumed to be independent, meaning that the GPSSMs cannot exploit the inductive biases between different outputs and lose certain model capacities. To address this issue, this paper proposes an output-dependent and more realistic GPSSM by utilizing the well-known, simple yet practical linear model of coregionalization (LMC) framework to represent the output dependency. To jointly learn the output-dependent GPSSM and infer the latent states, we propose a variational sparse GP-based learning method that only gently increases the computational complexity. Experiments on both synthetic and real datasets demonstrate the superiority of the output-dependent GPSSM in terms of learning and inference performance.
translated by 谷歌翻译
最近,基于得分的扩散模型在MRI重建中表现出令人满意的性能。这些方法中的大多数都需要大量完全采样的MRI数据作为培训集,有时在实践中很难获得。本文提出了用于MRI重建的完全采样的基于无DATA的分数扩散模型,该模型以不足的采样数据以自我监督的方式学习了完全采样的MR图像。具体而言,我们首先通过贝叶斯深度学习从未采样的数据中推断出完全采样的MR图像分布,然后通过训练分数函数来扰动数据分布并近似其概率密度梯度。利用学到的分数函数为先验,我们可以通过执行条件的Langevin Markov链蒙特卡洛(MCMC)采样来重建MR图像。公共数据集的实验表明,所提出的方法优于现有的自我监督的MRI重建方法,并与常规(完全采样的数据训练)基于得分的扩散方法实现可比性的性能。
translated by 谷歌翻译
时间动作本地化在视频分析中起着重要作用,该视频分析旨在将动作定位和分类在未修剪视频中。先前的方法通常可以预测单个时间尺度的特征空间上的动作。但是,低级量表的时间特征缺乏足够的语义来进行动作分类,而高级尺度则无法提供动作边界的丰富细节。为了解决这个问题,我们建议预测多个颞尺度特征空间的动作。具体而言,我们使用不同尺度的精致特征金字塔将语义从高级尺度传递到低级尺度。此外,为了建立整个视频的长时间尺度,我们使用时空变压器编码器来捕获视频帧的远程依赖性。然后,具有远距离依赖性的精制特征被送入分类器以进行粗糙的动作预测。最后,为了进一步提高预测准确性,我们建议使用框架级别的自我注意模块来完善每个动作实例的分类和边界。广泛的实验表明,所提出的方法可以超越Thumos14数据集上的最先进方法,并在ActivityNet1.3数据集上实现可比性的性能。与A2NET(tip20,avg \ {0.3:0.7 \}),sub-action(csvt2022,avg \ {0.1:0.5 \})和afsd(cvpr21,avg \ {0.3:0.7 \}) ,提出的方法分别可以提高12.6 \%,17.4 \%和2.2 \%
translated by 谷歌翻译
最近,未经训练的神经网络(UNNS)显示了在随机采样轨迹上对MR图像重建的令人满意的性能,而无需使用其他全面采样训练数据。但是,现有的基于UNN的方法并未完全使用MR图像物理先验,导致某些常见情况(例如部分傅立叶,常规采样等)的性能差,并且缺乏重建准确性的理论保证。为了弥合这一差距,我们使用特殊设计的UNN提出了一种保障的K空间插值方法,该方法使用特殊设计的UNN,该方法由MR图像的三个物理先验(或K空间数据)驱动,包括稀疏,线圈灵敏度平稳性和相位平滑度。我们还证明,所提出的方法保证了插值K空间数据准确性的紧密界限。最后,消融实验表明,所提出的方法比现有传统方法更准确地表征了MR图像的物理先验。此外,在一系列常用的采样轨迹下,实验还表明,所提出的方法始终优于传统的平行成像方法和现有的UNN,甚至超过了最先进的监督训练的K空间深度学习方法案例。
translated by 谷歌翻译
由于对隐私保护的关注不断增加,因此如何在不同数据源上建立机器学习(ML)模型具有安全保证,这越来越受欢迎。垂直联合学习(VFL)描述了这种情况,其中ML模型建立在不同参与方的私人数据上,该数据与同一集合相同的实例中拥有不相交的功能,这适合许多现实世界中的协作任务。但是,我们发现VFL现有的解决方案要么支持有限的输入功能,要么在联合执行过程中遭受潜在数据泄漏的损失。为此,本文旨在研究VFL方案中ML模式的功能和安全性。具体来说,我们介绍了BlindFL,这是VFL训练和推理的新型框架。首先,为了解决VFL模型的功能,我们建议联合源层团结不同各方的数据。联合源层可以有效地支持各种特征,包括密集,稀疏,数值和分类特征。其次,我们在联合执行期间仔细分析了安全性,并正式化了隐私要求。基于分析,我们设计了安全,准确的算法协议,并进一步证明了在理想真实的仿真范式下的安全保证。广泛的实验表明,BlindFL支持各种数据集和模型,同时获得强大的隐私保证。
translated by 谷歌翻译
近年来,Experts(MOE)的混合物已成为一种有前途的深度学习技术,可以将模型能力扩展为万亿多个参数,同时通过稀疏计算降低计算成本。虽然MoE开设了一个非常大的模型的新领域,但由于MOE的动态性质与系统的静态平行性/管道层之间的不匹配,因此其数以千计的GPU的实现受到限制。我们提出了Tutel,这是一种具有动态自适应并行性和管道的高度可扩展的堆栈设计和实现。 TUTEL在运行时提供自适应并行性切换和自适应管道,分别达到1.74倍和2.00倍的单MOE层加速度。我们还提出了一种用于MOE通信速度的新颖的二维层次结构算法,该算法的表现超过了2,048 GPU的先前最先前的最新时间。 Tutel汇总了所有技术,最终在16 GPU和2,048 GPU上分别提供了4.96倍和5.75倍的加速度,分别通过Fairseq:Meta的Facebook AI AI研究序列到序列工具Kit(Tutel(Tutel)(Tutel)(Tutel)(现在由Fairseq部分采用)。 Tutel源代码可在公共场所获得:https://github.com/microsoft/tutel。我们的评估表明,Tutel有效,有效地运行了一个基于现实的MOE模型,名为Swinv2-Moe,建立在Swin Transformer V2上,这是一种最先进的计算机视觉体系结构。在效率方面,Tutel加速了Swinv2-MoE,在FairSeq的训练和推理中分别达到1.55倍和2.11倍的速度。关于有效性,SWINV2-MOE模型在预训练和下游计算机视觉任务(例如可可对象检测)方面都比对应的密度密度模型都达到了卓越的精度,这表明Tutel准备对端到端现实世界模型训练的准备就绪和推理。 Swinv2-Moe在https://github.com/microsoft/swin-transformer中开放。
translated by 谷歌翻译
In this report, we present PP-YOLOE, an industrial state-of-the-art object detector with high performance and friendly deployment. We optimize on the basis of the previous PP-YOLOv2, using anchor-free paradigm, more powerful backbone and neck equipped with CSPRepResStage, ET-head and dynamic label assignment algorithm TAL. We provide s/m/l/x models for different practice scenarios. As a result, PP-YOLOE-l achieves 51.4 mAP on COCO test-dev and 78.1 FPS on Tesla V100, yielding a remarkable improvement of (+1.9 AP, +13.35% speed up) and (+1.3 AP, +24.96% speed up), compared to the previous state-of-the-art industrial models PP-YOLOv2 and YOLOX respectively. Further, PP-YOLOE inference speed achieves 149.2 FPS with TensorRT and FP16-precision. We also conduct extensive experiments to verify the effectiveness of our designs. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection.
translated by 谷歌翻译
很少有语义细分旨在识别一个看不见类别的对象区域,只有几个带注释的示例作为监督。几次分割的关键是在支持图像和查询图像之间建立牢固的语义关系,并防止过度拟合。在本文中,我们提出了一个有效的多相似性超关联网络(MSHNET),以解决几个射击语义分割问题。在MSHNET中,我们提出了一种新的生成原型相似性(GPS),与余弦相似性可以在支持图像和查询图像之间建立牢固的语义关系。基于全局特征的本地生成的原型相似性在逻辑上与基于本地特征的全局余弦相似性互补,并且可以通过同时使用两个相似性来更全面地表达查询图像和受支持图像之间的关系。此外,我们提出了MSHNET中的对称合并块(SMB),以有效合并多层,多弹射和多相似性超相关特征。 MSHNET是基于相似性而不是特定类别特征而构建的,这些特征可以实现更一般的统一性并有效地减少过度拟合。在两个基准的语义分割数据集Pascal-5i和Coco-20i上,MSHNET在1次和5次语义分段任务上实现了新的最先进的表演。
translated by 谷歌翻译
最近,模型驱动的深度学习通过用网络模块替换符号器的一阶信息(即(子)梯度或近端运算符)来拓展到级联网络中的一定迭代算法,该算法呈现出更可说明的与常见的数据驱动网络相比,可以预测。相反,理论上,不一定存在这样的功能常规程序,其一级信息与替换的网络模块匹配,这意味着网络输出可能不被原始正则化模型覆盖。此外,到目前为止,在现实假设下,也没有保证展开网络的全球收敛性和鲁棒性(规律性)。为了弥合这一差距,本文建议在展开网络上提出保障方法。具体而言,专注于加速MRI,我们展开了一个零阶算法,网络模块代表常规器本身,使得网络输出可以仍然被正则化模型覆盖。此外,受到深度均衡模型的理想的启发,在反向化之前,我们执行了展开的迭代网络,以收敛到一个固定点,以确保收敛。如果测量数据包含噪声,我们证明了所提出的网络对嘈杂干扰具有强大。最后,数值实验表明,所提出的网络始终如一地优于最先进的MRI重建方法,包括传统的正规化方法和其他深度学习方法。
translated by 谷歌翻译
病变检测是乳房X线照相术的计算机辅助诊断方案中的一个基本问题。如果培训数据在图像风格和质量方面,深度学习技术的进步对这项任务产生了显着的进展。特别地,图像样式的多样性可能主要归因于供应商因子。然而,尽可能多的供应商收集来自供应商的非常昂贵,并且有时对于实验室规模研究是不切实际的。因此,为了进一步将深度学习模型的泛化能力扩展到具有有限资源有限的各种供应商,开发了一种新的对比学习方案。具体地,骨干网络首先具有多种式和多视图无监督的自学习方案,用于将不变功能嵌入到各种供应商样式中。之后,用特定的监督学习重新校准骨干网络与病变检测的下游任务。所提出的方法是用来自四个供应商的乳房X线照片和一个看不见的公共数据集进行评估。实验结果表明,我们的方法可以有效地改善观察和看不见的域的检测性能,并且优于许多最先进的(SOTA)泛化方法。
translated by 谷歌翻译